查看原文
其他

为机器人注入灵魂?阿里“千问”大模型又有新动向

TMT时报 2023-07-06

The following article is from 科创板日报 Author 小K

GPT等大模型的出现,为推翻树立在人类与AI面前的“巴别塔”提供了新思路,即将多模态的大语言模型作为人类与机器人沟通的桥梁。


在第六届数字中国建设峰会上,阿里巴巴董事会主席兼CEO、阿里云智能集团CEO张勇透露,阿里云工程师正在实验将千问大模型接入工业机器人,在钉钉对话框输入一句人类语言,可远程指挥机器人工作。阿里云当天发布的一个演示视频,展现了这一实验成果。“我渴了,找点东西喝吧。”工程师通过钉钉对话框向机器人发出指令后,千问大模型立即理解了指令内容并回答,“好的,我找找有什么喝的。”随后,千问大模型在后台自动编写了一组代码发给机器人,机器人开始识别周边环境,从附近的桌上找到一瓶水,并自动完成移动、抓取、配送等一系列动作,顺利递送给工程师。

张勇表示,“制造业是AI大模型的重要战场,未来10年最大的机会就在于云、AI与物理世界机器的融合,机器人取水只是第一步,未来能与人直接对话的智能机器人,将改变整个工厂的形态。”目前,人们依然严重依赖代码来实现对机器人的控制,人类操作机器人需要学习复杂的编程语言或机器人系统的细节,而GPT等大模型的出现,为推翻树立在人类与AI面前的“巴别塔”提供了新思路,即将多模态的大语言模型作为人类与机器人沟通的桥梁正如阿里云工程师所说,“AI大模型突破了机器人的局限,让人类可以通过自然语言指挥机器完成负责任务,让机器人真有了大脑。”另外,大模型对机器人领域的加持不仅体现在应用环节,也可参与开发环节。据阿里云工程师介绍,在机器人开发阶段,工程师可通过千问大模型自动生成代码指令完成机器人功能的开发与调试,甚至还能为机器人创造一些全新的功能。阿里之外,头部AI大公司均在尝试以大模型为机器人注入灵魂。
微软团队正探索如何将 OpenAI研发的ChatGPT扩展到机器人领域,旨在让人类用自然语言控制如机械臂、无人机、家庭辅助机器人等多个平台。3月23日,OpenAI还领投了挪威人形机器人公司1X。

3月8日,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型——PaLM-E,同时谷歌表示,计划探索PaLM-E在现实世界场景中的更多应用,例如家庭自动化或工业机器人,希望PaLM-E能够激发更多关于多模态推理和具身AI的研究。
不过,大模型只是提供了一种新思路,距离能听懂“人话”的机器人面世,还有很长的路要走。语言模型固然可以为机器人提供更好的步骤规划评估和选择,但并不能面面俱到,比如不能告诉机器人打开冰箱时应施加多大的力。谷歌在内的巨头也暂时没有将装上大模型的机器人商业化的计划。


推荐阅读






您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存